Probabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia

نویسنده

  • Derwin Suhartono
چکیده

Abstrak Salah satu pekerjaan yang ada di dalam mengelola dokumen adalah bagaimana menemukan intisari dari dokumen. Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan representasi dokumen berupa kata-kata kunci dari dokumen. Kata-kata kunci tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen untuk ditemukan kembali sesuai kebutuhan pengguna. Pada penelitian ini, akan dibahas secara spesifik mengenai Probabilistic Latent Semantic Analysis (PLSA). Pembahasan akan meliputi mekanisme bagaimana PLSA yang juga melibatkan algoritma Expectation Maximization (EM) sebagai pelatihan diterapkan pada sekumpulan data korpus, serta bagaimana melakukan uji coba dan memperoleh akurasi hasil penggunaan PLSA. Keyword: topic modelling, Probabilistic Latent Semantic Analysis, Expectation Maximization

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Klasifikasi Komponen Argumen Secara Otomatis pada Dokumen Teks berbentuk Esai Argumentatif

Abstrak Dengan pengenalan argumen secara otomatis dari dokumen teks, penulis esai dapat melakukan inspeksi pada teks yang mereka tulis. Hal ini akan membantu penilaian esai secara lebih objektif dan tepat karena penilai esai akan melihat seberapa baik komponen argumentasi terbentuk. Beberapa peneliti mencoba untuk melakukan pendeteksian dan klasifikasi argumen serta penerapannya pada berbagai d...

متن کامل

Automatic Essay Grading With Probabilistic Latent Semantic Analysis

Probabilistic Latent Semantic Analysis (PLSA) is an information retrieval technique proposed to improve the problems found in Latent Semantic Analysis (LSA). We have applied both LSA and PLSA in our system for grading essays written in Finnish, called Automatic Essay Assessor (AEA). We report the results comparing PLSA and LSA with three essay sets from various subjects. The methods were found ...

متن کامل

Learning spoken document similarity and recommendation using supervised probabilistic latent semantic analysis

This paper presents a model-based approach to spoken document similarity called Supervised Probabilistic Latent Semantic Analysis (PLSA). The method differs from traditional spoken document similarity techniques in that it allows similarity to be learned rather than approximated. The ability to learn similarity is desirable in applications such as Internet video recommendation, in which complex...

متن کامل

Correlated PLSA for Image Clustering

Probabilistic Latent Semantic Analysis (PLSA) has become a popular topic model for image clustering. However, the traditional PLSA method considers each image (document) independently, which would often be conflict with the real occasion. In this paper, we presents an improved PLSA model, named Correlated Probabilistic Latent Semantic Analysis (C-PLSA). Different from PLSA, the topics of the gi...

متن کامل

A Tutorial on Probabilistic Latent Semantic Analysis

Historically, many believe that these three papers [7, 8, 9] established the techniques of Probabilistic Latent Semantic Analysis or PLSA for short. However, there also exists one variant of the model in [11] and indeed all these models were originally discussed in an earlier technical report [10]. In [2], the authors extended MLE-style estimation of PLSA to MAP-style estimations. A hierarchica...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • CoRR

دوره abs/1512.00576  شماره 

صفحات  -

تاریخ انتشار 2015